首页> 外文OA文献 >Semantic Vector Encoding and Similarity Search Using Fulltext Search Engines
【2h】

Semantic Vector Encoding and Similarity Search Using Fulltext Search Engines

机译:基于全文搜索的语义向量编码和相似性搜索   引擎

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Vector representations and vector space modeling (VSM) play a central role inmodern machine learning. We propose a novel approach to `vector similaritysearching' over dense semantic representations of words and documents that canbe deployed on top of traditional inverted-index-based fulltext engines, takingadvantage of their robustness, stability, scalability and ubiquity. We show that this approach allows the indexing and querying of dense vectorsin text domains. This opens up exciting avenues for major efficiency gains,along with simpler deployment, scaling and monitoring. The end result is a fast and scalable vector database with a tunabletrade-off between vector search performance and quality, backed by a standardfulltext engine such as Elasticsearch. We empirically demonstrate its querying performance and quality by applyingthis solution to the task of semantic searching over a dense vectorrepresentation of the entire English Wikipedia.
机译:向量表示和向量空间建模(VSM)在现代机器学习中起着核心作用。我们提出了一种新颖的方法来“向量相似性搜索”,它可以在可基于传统的基于反向索引的全文引擎之上部署的单词和文档的密集语义表示中,利用它们的鲁棒性,稳定性,可伸缩性和普遍性。我们证明了这种方法可以在文本域中索引和查询密集向量。这为提高效率以及简化部署,扩展和监控开辟了令人兴奋的途径。最终结果是一个快速且可扩展的矢量数据库,并在矢量搜索性能和质量之间进行了可调的权衡,并得到了标准全文引擎(例如Elasticsearch)的支持。我们通过将此解决方案应用于整个英语Wikipedia的密集矢量表示中的语义搜索任务,以经验方式证明其查询性能和质量。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号